import pandas as pd

df = pd.read_excel("./movieinfo_cleaned.xlsx")
# 这一列最大值下标
index = df["时长"].argmax()
print(df.iloc[index,:])

# 平均分
avg = df['分数'].mean()

# 高于平均分
print(df[df['分数']  > df['分数'].mean()])
print(df[df['分数']  > df['分数'].mean()][['电影名称']])
movie_list = df['分数'] > avg
# for i in range(len(movie_list)):
#     print(df.iloc[index,:])
#     print("!"*10)

# 国家是中国的
def hasChina(x):
    return '中国' in x
print(df[df['国家'].apply(hasChina) & (df['分数']  > df['分数'].mean())])
# 2000年以后并统计数量
def year(x):
    return int(x[:4])
print(df[df['上映时间'].apply(year)  >= 2000]['上映时间'].count())
# 每年多少个
print(df['上映时间'].groupby(df['上映时间'].apply(year)).count())